Lift Chart(リフトチャート) | Alteryx Predictive Tools 道場 Advent Calendar 2018 #10
こんにちは、にいのです。
当エントリは『Alteryx Predictive Tools 道場 Advent Calendar 2018』の10日目のエントリです。12月ももう中盤ですが、まだまだアドベントカレンダーは続きます!
クラスメソッド Alteryx Predictive Tools 道場 Advent Calendar 2018 - Qiita Alteryx Predictive Tools 道場 Advent Calendar | シリーズ | DevelopersIO
前提条件
Alteryxは「Alteryx Designer / Version 2018.4」を利用しています。
サンプルワークフローとは?
Alteryxでは、Predictive Toolを使用したサンプルワークフローを参照することができます。[Help]→[Sample Workflows]→[Predictive Tool samples]→[Predictive Analytics]から参照可能です。参照にはAlteryx Predictive Tools with Rがインストールされている必要があります。
そもそもLift Chart(リフトチャート)とは?
予測モデルを視覚的に比較する手法です。複数のモデルを使って予測をする際、それぞれのモデルの評価をグラフ化することで比較することができます。Lift Chart Toolで作成したチャートを後述しますが、数値が最大値の1に近いほど信頼性の高いモデルと言えます。
サンプルワークフローを読み解く
Lift Chartのサンプルワークフローの全体図は以下の通りです。Forest Model
、Decision Tree
、Logistic Regression
、Stepwise
の4つの予測モデルと、擬似的に未知のデータとして取り扱っている評価用データを最後に繋げられたLift Chart Toolで比較をする、という処理を行なっています。評価用データについてはCreate Samples Toolの項目で解説します。
インプットファイル
データの元ネタはMachine Learning RepositoryのStatlog (German Credit Data) Data Set です。このデータではドイツの人々をクレジットリスクの良し悪しで分類しています。データの最後に[Default(債務不履行の有無)]の項目が追加されており、値はYes
/No
の2種類となっております。他のサンプルワークフローでもよく使われているので、見覚えのある方もいらっしゃるのではないでしょうか。
このインプットファイルに対して下記の2つのツールを通してデータを整形します。
Oversample Field Tool
まずはOversample field toolを使って、項目[Default(債務不履行の有無)]の値(Yes
/No
)の数をそれぞれ50%ずつに調整します。調整された結果、レコード数が1000件→600件に減ります。
Create Samples Tool
このツールを使って、評価用のデータと学習用のデータの2種類を作成します。評価用と学習用それぞれ50%ずつの割合となるように設定されています。E
アンカーからアウトプットされる学習用データは比較対象となる4つの予測モデルのツールに繋げられており、V
アンカーからアウトプットされている評価用のデータはLift Chart Toolに繋げられています。
この処理のねらいとしては、未知のデータをどれだけうまく予測できるかを測ることです。予測結果の信頼性を測る指標として、未知のデータをどれだけうまく予測できているかが重要ですが、未知のデータは手元にありません。そこで、学習に使うデータとそうでないデータを分割し、学習に使用しないデータを擬似的に未知のデータと仮定しています。下記ブログでも紹介されておりますので、合わせてご参照ください。
Estimation Container
Forest Model
、Decision Tree
、Logistic Regression
、Stepwise
の4つの予測モデルでそれぞれ予測を行っています。それぞれのツールのO
アンカーからのアウトプットを最終的にUnion Toolに繋げています。
Union Toolを通した結果は以下の通りです。
Lift Chart Tool
いよいよLift Chart Toolの登場です。前項でご紹介した4つの予測モデルと、Create Samples Toolによって分割された評価用データをインプットさせています。結果は以下の通りです。
比較している4つの予測モデルをグラフで確認することができます。対角線に伸びている直線はランダムで予測した結果です。
[Area]の数値が1に近いほど信頼性が高くなります。今回のケースですと、Forest Model
が最も信頼性が高いと言えます。
おわりに
今回はLift Chartのサンプルワークフローをご紹介いたしました。予測モデルを比較が必要となった際、ぜひお試しください。明日はじょんすみすによる「New Donor Sample :RE(新しい寄付者)」の予定です。お楽しみに!
Alteryxの導入なら、クラスメソッドにおまかせください
日本初のAlteryxビジネスパートナーであるクラスメソッドが、Alteryxの導入から活用方法までサポートします。14日間の無料トライアルも実施中ですので、お気軽にご相談ください。